\cleardoublepage

\section{实验平台与仿真环境}
\subsection{实验平台}
本文使用高擎科技Mini π双足机器人作为实验平台。
Mini π机器人整体结构如图\ref{fig:mini-pi}所示，一共拥有12个自由度，每条腿拥有6个自由度，分别为3个髋关节自由度、1个膝关节自由度(俯仰角)和2个踝关节自由度（俯仰角+偏转角）。
机器人采用香橙派（Orange Pi）开发板作为主控平台，使用CAN协议与电机通信，可实现50 kHz的力控下发与角度读取。
\begin{figure}
    \centering
    \includegraphics[width=.4\linewidth]{HTPi.png}
    \caption{双足机器人Mini π}
    \label{fig:mini-pi}
\end{figure}
双足机器人Mini π相关重要参数如表\ref{tab:mini-pi-params}所示
\begin{table}[ht]
    \centering
    \caption{双足机器人Mini π重要参数}
    \label{tab:mini-pi-params}
    \begin{tabular}{ll}
      \toprule
      参数               & 数值         \\
      \midrule
      站立高度           & 590\,mm      \\
      重量（含电池）     & 7\,kg        \\
      工作电压           & 24\,V        \\
      最大关节扭矩              & 20\,Nm        \\
      自由度             & 12           \\
      电池额定容量        &5000\,mAh \\
      \bottomrule
    \end{tabular}
  \end{table}

\subsection{仿真环境}
\subsubsection{isaacgym}

我们选用 Isaac Gym作为训练与仿真平台，并基于开源腿足式机器人运动框架 legged\_gym \cite{isaac2021}搭建训练框架。
Isaacgym是NVIDIA推出的基于物理引擎PhysX的高性能机器人仿真平台，专为强化学习设计，
除了基本的自定义地形及场景、通过URDF文件自定义添加部署机器人仿真模型、实现机器人关节位置控制和力矩控制等基本功能以外，其还允许开发者使用GPU来运行环境模拟，并将观测量与奖励等都存储为GPU张量，直接放入网络中进行运算。因此，其不仅避免了传统仿真软件中从CPU仿真环境模拟到GPU网络训练转换所耗费的额外运算成本，而且能够同时并行运算数千个仿真环境为当前训练模型提供大量训练样本，从而改善模型训练速度慢、采样效率低下的问题，对于基于深度强化学习的算法研究有着独特的优势。
\begin{figure}
  \centering
  \includegraphics[width=.8\linewidth]{isaac.png}
  \caption{IsaacGym并行仿真}
  \label{fig:isaac}
\end{figure}
\subsubsection{Gazebo}
Gazebo 是一个开源的3D机器人仿真器，由 Open Robotics 推出，能够与ROS（Robot Operating System）深度集成，
用于机器人感知、控制、导航等任务的仿真验证。Gazebo 支持高保真的物理仿真（包括刚体动力学、碰撞检测、摩擦建模等），
内置多种主流物理引擎如 ODE、Bullet 和 DART，并具备丰富的传感器仿真能力（如激光雷达、IMU、RGB-D 相机等），可视化和交互性强，适合进行机器人系统集成测试与功能验证。
Gazebo提供了丰富的插件接口，可以方便地扩展功能和自定义仿真环境。

与 Isaac Gym 相比，Gazebo 拥有更加准确的计算精度和更加丰富的仿真环境，适用于训练策略的集成测试与仿真验证。

\begin{figure}
  \centering
  \includegraphics[width=.8\linewidth]{GAZEBO.png}
  \caption{Gazebo仿真器}
  \label{fig:gazebo}
\end{figure}